## Parsed with column specification:
## cols(
## series_name = col_character(),
## episode = col_character(),
## series_ep = col_integer(),
## season = col_integer(),
## season_ep = col_integer(),
## url = col_character(),
## user_rating = col_double(),
## user_votes = col_double(),
## r1 = col_double(),
## r2 = col_double(),
## r3 = col_double(),
## r4 = col_double(),
## r5 = col_double(),
## r6 = col_double(),
## r7 = col_double(),
## r8 = col_double(),
## r9 = col_double(),
## r10 = col_double()
## )
Antes de responder a esta pergunta podemos tentar ter um panorama geral do comportamento das notas atribuídas a cada temporada de uma série. Nos gráficos abaixo podemos ver, por exemplo, que os produtores de American Idol foram bastante persistentes uma vez que desde a primeira teporada o show não foi bem recebido pelo público. Depois de muitos altos e baixos, na 12ª temporada quando a nota foi a segunda pior da sua história, as temporadas seguintes vêm mostrando um crescimento bastante alto atingindo a nota máxima, 6.72 na 15ª temporada.
Porém também podemos observar casos em que aparentemente os produtores não souberam quando parar. Os Simpsons ilustram bem essa situação. A série passa bastante tempo bem sucedida mas a partir mais ou menos da 11ª temporada, sua nota começa a cair bastante chegando a 6.67 na 28ª temporada.
Outro fato interessante é que quando começam, as séries ficam num limbo entre aproximadamente 6.8 e 9.2 e aparentemente há um processo de funilamento até a 8ª temporada. Outra coisa que chama atenção é um conjunto de séries que aparecem com um traço sempre crescente até mais ou menos a 4ª temporada.
series_by_season = series %>%
group_by(series_name, season) %>%
summarise(mean_user_rating = mean(user_rating))
series_by_season %>%
ggplot(aes(x = season, y = mean_user_rating, group = series_name)) +
geom_line(size = 0.1, alpha = 0.5)
means_by_season = plot_ly(series_by_season,
x = ~season,
y = ~mean_user_rating,
color = ~series_name,
type = "scatter",
mode = "lines") %>%
layout(showlegend = FALSE)
means_by_season
## Warning in RColorBrewer::brewer.pal(N, "Set2"): n too large, allowed maximum for palette Set2 is 8
## Returning the palette you asked for with that many colors
#usually, how many seasons has successful serie?
Mas para de fato responder a esta pergunta, devemos checar se existe uma correlação linear entre a quantidade de temporadas e a nota “absoluta” de uma série. Sendo a nota “absoluta” a média de todas as avaliações dadas àquela série.
absolute_mean_series = series %>%
group_by(series_name) %>%
summarise(mean_user_rating = mean(user_rating),
total_seasons = n_distinct(season))
seasons_vs_user_rating = absolute_mean_series %>%
plot_ly(x = ~total_seasons,
y = ~mean_user_rating,
marker = list(size = 10,
line = list(width = 2))
) %>%
layout(title = "Relação Entre a Nota de uma Série e Quantidade de Temporadas",
xaxis = list(title = "Total de Temporadas"),
yaxis = list(title = "Nota da Série"))
seasons_vs_user_rating
## No trace type specified:
## Based on info supplied, a 'scatter' trace seems appropriate.
## Read more about this trace type -> https://plot.ly/r/reference/#scatter
## No scatter mode specifed:
## Setting the mode to markers
## Read more about this attribute -> https://plot.ly/r/reference/#scatter-mode
Já pelo gráfico, podemos deduzir que não há uma correlação linear forte entre a nota de uma série e o total de temporadas dela. O que se confirma ao calcularmos o coeficiente linear de Pearson, que é igual a 0.048, como é próximo de zero, podemos afirmar que a correlação linear é fraca entre as variáveis. Mas podemos observar que aparentemente quanto mais temporadas mais as notas convergem para 8. Esse seria o funil observado nos gráficos anteriores.
cor(absolute_mean_series$total_seasons, absolute_mean_series$mean_user_rating,
method = "pearson")
## [1] 0.04835904
Consideraremos séries de sucesso, aquelas que possuem nota acima de 8.8.
O fato de não haver correlação entre a quantidade de séries e sua nota IMDB também fica evidenciado aqui, uma vez que as séries variam de 1 a 6 temporadas. Mas existe uma concentração maior de séries bem sucedidas com 2 e 3 temporadas.
success_series = absolute_mean_series %>%
filter(mean_user_rating > 8.9)
plot_success_series = success_series %>%
plot_ly(x = ~total_seasons,
y = ~mean_user_rating,
type = "bar",
color = ~series_name) %>%
layout(barmode = "stack")
plot_success_series
## Warning in RColorBrewer::brewer.pal(N, "Set2"): n too large, allowed maximum for palette Set2 is 8
## Returning the palette you asked for with that many colors
density_success_series = success_series %>%
ggplot(aes(total_seasons)) +
geom_density(fill = "#ff4d4d", alpha = 0.5)
ggplotly(density_success_series)
## We recommend that you use the dev version of ggplot2 with `ggplotly()`
## Install it with: `devtools::install_github('hadley/ggplot2')`
Consideraremos as séries com avaliação acima de 8.8.